1 research outputs found

    Puheenerottelujärjestelmän toteutus InMoov-robotille

    Get PDF
    Tiivistelmä. Koneellisia kuulojärjestelmiä ja niiden osia on kehitetty jo vuosikymmeniä; olemassa on kuitenkin edelleen useita ongelmia, jotka ovat esteenä ihmistä vastaavan kuulojärjestelmän saavuttamisessa. Yksi näistä ongelmista on puhujien erottelu puhesekoituksesta erillisiksi äänisignaaleiksi, jota kutsutaan myös cocktailkutsuongelmaksi. Vaikka ihmisen on helppo paikantaa ja erotella eri puhujat usean samanaikaisen puhujan joukosta, samaan suorituskykyyn yltävä koneellinen toteutus on osoittautunut haastavaksi. Usein ratkaisuissa pyritään hyödyntämään useista mikrofoneista koostuvia mikrofoniryhmiä, jotka mahdollistavat monikanavaisten kaiun- ja kohinanpoistomenetelmien sekä äänilähteiden suuntien käytön apuna erotteluprosessissa. Viime vuosina on myös tutkittu syväoppimista hyödyntäviä menetelmiä, jotka ovat antaneet lupaavia tuloksia. Tässä työssä esitellään uPIT-syväoppimismenetelmää käyttävä toteutus puheenerottelujärjestelmästä ROS-ympäristössä InMoov-robotille. Työn tavoitteena on selvittää erottelualgoritmin tuoma hyöty robotin kuulojärjestelmän osana. Toteutettu ROS-komponentti antaa muille järjestelmän komponenteille rajapinnan, joka tarjoaa robotin ympärillä kuuluvien puhujien erotellut puhesignaalit, ja lisäksi estimaatin yhden puhujan suunnan atsimuutista astelukuna suhteessa pään katsesuuntaan. Ratkaisussa on käytetty Seeed Studion ReSpeaker Mic Array v2.0 -mikrofonijärjestelmää, joka suorittaa sisäänrakennetusti kaiun ja taustamelun vaimennuksen, keilanmuodostuksen ja äänen tulosuunnan estimoinnin. Mikrofonin tallentama puhdistettu signaali välitetään uPIT-syväoppimismenetelmän avulla koulutettuun puheenerottelualgoritmiin, joka erottelee eri puhujille kuuluvat signaalit toisistaan. Erottelun tuloksena testiaineistolla saavutettiin parhaimmillaan 5,99 dB parannus signaali-särösuhteessa kahden vastakkaista sukupuolta olevan aiemmin nähdyn puhujan erottelussa. Uusien puhujien erottelussa vastaava arvo on 5,60 dB. Koska tulokset saatiin käyttäen LibriSpeech-kieliaineistoa yleisen puheenerotteluun käytetyn WSJ0-aineiston sijasta, arvot eivät ole täysin vertailukelpoisia vastaavanlaisten tutkimusten kanssa. Vaikka saadut tulokset ovat parempia kuin joillain tavanomaisilla yksikanavaisilla puheenerottelumenetelmillä saavutetut arvot, kehitetyn puheenerottelujärjestelmän ei nähdä yltävän käytännön tilanteiden vaatimaan suorituskykyyn. Järjestelmä tarjoaa kuitenkin hyvän lähtökohdan robotin puheenerottelulle.Speech separation system solution for InMoov robot. Abstract. Machine hearing systems and their subcomponents have been researched for decades; however, there are still problems that are preventing the system from reaching human-like performance. One of the problems is separating multiple speakers from a speech mixture into separate signals, which is called the cocktail party problem. Even though it is easy for humans to locate and separate different speakers from a group of multiple simultaneous speakers, achieving this kind of performance in a machine has proven to be a challenging task. Often the proposed solutions use an array of multiple microphones, which open up the possibility of using multichannel dereverberation and noise suppression techniques and directions of sound sources to aid the separating process. Recent years have also seen increasing research of solutions using deep learning, which have given promising results. In this thesis, a speech separating system using the uPIT deep learning technique for InMoov humanoid robot is presented. The goal of the thesis is to see whether the speech separating system brings any meaningful improvements to the machine hearing system in the system’s ability to process speech. The developed component provides the other components of the system an interface for accessing separated speech signals and an estimate of the azimuth direction of one of the speakers. The solution utilizes Seeed Studio’s ReSpeaker Mic Array v2.0 microphone array, which provides built-in functionality for dereverberation and noise suppression, beamforming, and estimation of the direction of sound sources. The recorded and processed sound signals are sent to a deep learning speech separation system trained with utterance level permutation invariant training, which separates the different speech signals. The separation system achieved at most a 5.99 dB improvement in signal-to-distortion ratio with two speakers of different genders in closed condition. In open condition, the improvement was 5.60 dB. Because the results were acquired using the LibriSpeech dataset, instead of the more common WSJ0 dataset, as the training data of the model, the results are not comparable to other similar studies. Even though the SDR values show improvement in results over some of the other single-channel separation methods, the performance of the system was not deemed good enough to meet the requirements of real-world applications. However, the system is still a good starting point for further development of the robot’s hearing system
    corecore